AI 快讯列表关于 GPT 5.4
| 时间 | 详情 |
|---|---|
|
2026-03-29 19:21 |
SlopCodeBench重磅分析:威斯康星大学与MIT揭示AI编程基准失真—11款模型、93个检查点却零端到端解题
据God of Prompt在X平台报道,威斯康星大学与MIT发布SlopCodeBench,证实以通过率为核心的编码基准无法识别迭代开发中的结构性退化;在包含Claude Opus 4.6与GPT 5.4的11款模型上,零模型完成端到端解题,且89.8%的轨迹中冗长度上升(据该贴文)。据该线程介绍,基准包含20道题与93个检查点,模型必须在自身代码基础上按更新规格扩展,实现测试通过但复杂度与重复样板累积;代理代码侵蚀度为0.68,而人类仓库为0.31,代理冗长度0.32而人类为0.11,成本从首到末检查点增加2.9倍但正确率未提升,最高严格解题率仅17.2%(据该贴文)。该报道还称,对GPT 5.4的“反Slop”提示可使初始冗长度下降34.5%,但退化斜率不变,表明本质是架构与局部最优驱动,提示企业应采用度量可维护性、可扩展性与全生命周期成本的新型基准以评估AI编程助手的商业价值。 |
|
2026-03-12 05:26 |
OpenClaw 2026.3.11 重磅更新:OpenRouter 免费百万上下文、GPT 5.4 不中断、Gemini Embedding 2 记忆增强、Go 支持与安全加固
据 @openclaw 在 X 上发布的信息,OpenClaw 2026.3.11 推出 Hunter 与 Healer Alpha,并通过 OpenRouter 提供免费百万令牌上下文模型,适合超长文本检索与RAG场景(据 OpenClaw GitHub 发布说明)。据 OpenClaw,版本集成 Gemini Embedding 2,用于长期记忆与向量检索,提升召回与相关性。另据该项目公告,GPT 5.4 经过调优,解决中途停顿的问题,降低代理循环与代码生成截断风险。根据其 GitHub 说明,OpenCode 新增 Go 语言支持,覆盖自动补全、重构与测试生成;同时开展安全加固冲刺,包括依赖锁定、密钥扫描与沙箱收紧,提升模型工具链安全。对企业而言,据 OpenClaw,这些更新可降低长上下文成本、提高检索精度并加速多语言开发流程,利于构建具备持久记忆的智能体与长文档分析应用。 |
|
2026-03-07 02:34 |
LLM长篇创作难题解析:GPT 5.4 Pro、Claude、Gemini 3.1 Pro在10段推理小说基准上的失败与启示
据Ethan Mollick在Twitter披露,这一“10段推理小说”难题暴露主流LLM在规划、线索埋设与叙事一致性上的缺陷:Claude遗漏关键线索、ChatGPT 5.4 Pro线索过于直白且文风堆砌、Gemini 3.1 Pro对“冰”线索的因果解释失败(来源:Ethan Mollick,Twitter)。Mollick指出,前五段需埋下可被推理出的证据但对大多数读者仍足够隐蔽,此要求对多步叙事规划与约束跟踪形成强压(来源:Ethan Mollick,Twitter)。对企业而言,这提示在长文案、合规情境故事、教育案例与互动叙事等场景存在质量与风险控制难点,需引入结构化大纲锁定、剧情图工具与事后验证链以降低幻觉与“缺线索”失误(来源:Ethan Mollick,Twitter)。 |